草庐IT

MySQL GROUP BY 和 COUNT 多列

全部标签

hadoop - 如何更新分桶式和 orc 格式的配置单元表中的多列

我可以更新单个列,但不能更新从另一个表引用的多个列。我启用了所有ACID属性以支持配置单元(1.2.1)表更新。我有两个表,表1:架构:createtabletable1(emp_idint,emp_namestring,etimetimestamp);数据:员工编号|员工姓名|时间1|大卫|2016-01-0812:27:302|约翰|2016-01-0812:27:45表2架构:创建表table2(emp_idint,emp_namestring,etimetimestamp)集按(emp_id)聚类到4个存储桶中存储为orcTBLPROPERTIES('transactional

sql - COUNT() OVER 可能在 HIVE 中使用 DISTINCT 和 WINDOWING

我想计算当前行和前X行(滑动窗口)之间存在的不同端口号的数量,其中x可以是任何整数。例如,如果输入是:IDPORT121222323425525621输出应该是:IDPORTCOUNT121122223233425452546214我在RapidMiner上使用Hive,我尝试了以下方法:selectid,port,count(*)over(partitionbysrcportorderbyidrowsbetween5precedingandcurrentrow)这必须适用于大数据并且X是大整数。如有任何反馈,我们将不胜感激。 最佳答案

sql - “Hive” 多列的最大列值

您好:我有一种情况需要在3个计算字段中找到最大值并将其存储在另一个字段中,是否可以在一个SQL查询中完成?下面是例子SELECTIncome1,Income1*2%asPersonal_Income,Income2,Income2*10%asShare_Income,Income3,Income3*1%asJob_Income,Max(Personal_Income,Share_Income,Job_Income)FromTable我尝试的一种方法是在我使用的第一遍和第二遍中计算Personal_Income、Share_Income、Job_IncomeSelectCasewhenP

sql - 在选择中具有多列的配置单元查询并按一列分组

我有下面的数据集示例图像和预期结果。在具有十亿条记录的数据集中实现这种结果的最佳方法是什么。我们应该使用中间临时表还是在1个查询中。要求:-获取表中超过2条记录的SN的所有记录,只显示Price为100的记录CREATETABLEtest(`sn`string,`itemA`string,`itemB`string,`price`int)insertintotabletestvalues('1','A','D',100),('1','B','E',100),('1','C','F',200),('2','A','D',100),('2','C','F',200);

hadoop - 在 Tez 和 Map reduce 中运行 "count(*) "时的行为差异

最近我遇到了这个问题。我在Hadoop分布式文件系统路径和相关配置单元表中有一个文件。table的两边都有30个分区。我从HDFS中删除了5个分区,然后执行了"msckrepairtable;"在hivetable上。它完成得很好但输出了"Partitionsmissingfromfilesystem:"我尝试运行selectcount(*);(在tez上)失败并出现以下错误:Causedby:java.util.concurrent.ExecutionException:java.io.FileNotFoundException:但是当我将hive.execution.engine设

java - Words Count 输出显示 mapred 而不是 mapreduce

我刚刚将我的Ubuntu13.10配置为在伪分布式模式下工作以进行mapreduce代码开发。我已经安装了hadoop0.20.2版本的hadoop。一切都运行良好,我也可以启动所有五个守护进程。在同一台机器上,我下载了eclipse并将所有基于hadoop的库添加到其中。我也可以直接从EclipseIDE运行我的map减少字数示例。唯一困扰我的是,当我运行字数统计示例时,它会在控制台中打印如下内容:13/09/2316:11:05WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...us

hadoop - 自定义分区程序 : N number of keys to N different files for word count

您好,我正在学习hadoop,我想要一个关于如何使用自定义partioner解决字数统计问题的示例。我希望将缩减器设置为26,以便所有以“A”开头的字符都将转到第一个缩减器,所有字符“B”将转到第二个缩减器,依此类推....公共(public)类PersonPartitioner扩展了Partitioner{@OverridepublicintgetPartition(Textkey,IntWritableVal,intnumOfReducer){Stringline=key.toString();String[]splits=line.trim().replaceAll("[0-9]

hadoop - Hive count(*) 查询未调用 mapreduce

我在配置单元中有外部表,我正在尝试运行selectcount(*)fromtable_name查询,但查询立即返回并给出我认为已经存储的结果。查询返回的结果不正确。有没有办法强制执行mapreduce作业并使查询每次都执行。注意:并非所有外部表都遵循此行为,但其中一些外部表遵循此行为。使用的版本:Hive0.14.0.2.2.6.0-2800,Hadoop2.6.0.2.2.6.0-2800(Hortonworks) 最佳答案 经过一些发现,我找到了一种方法,可以启动MR来计算orc表上的记录数。ANALYZETABLE'表名'PA

python - 在配置单元中使用 python udf 时如何查询多列?

我正在尝试执行此查询:addFILE/home/user1/test/test_udf.py;SELECTa.hash_code,col2FROM(SELECTtransform(col2,col3)using'pythontest_udf.py'ashash_code,col2FROMsample_table)a;我能够使用udf成功生成hash_code,但另一列(col2)被填充为NULL。示例输出:sjhfshhalksjlkfj128798172jasjhasNULLajsdlkja982988290819189089089889NULLjhsad817982mnsandkj

hadoop - 使用 spark/scala,我使用 saveAsTextFile() 到 HDFS,但是 hiveql("select count(*) from...) return 0

我创建了如下外部表...hive-e"createexternaltabletemp_db.temp_table(achar(10),bint)PARTITIONEDBY(PART_DATEVARCHAR(10))ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'STOREDASTEXTFILELOCATION'/work/temp_db/temp_table'"我在IntelliJIDEA中将saveAsTextFile()与scala一起使用,如下所示...itemsRdd.map(_.makeTsv).saveAsTextFile("hdfs://w